Magazine

Legal AI: l'Intelligenza Artificiale alla prova del tempo in ambito legale

27/05/2026
Legal AI: l'Intelligenza Artificiale alla prova del tempo in ambito legale
EnterprisePMIProfessionisti
L'adozione dei Large Language Models (LLM) nel settore legale ha ormai superato la fase dell'entusiasmo pionieristico per entrare in una vera e propria maturità applicativa. Oggi, avvocati, consulenti e dipartimenti legali aziendali si affidano quotidianamente all'Intelligenza Artificiale per l'analisi documentale, la ricerca di giurisprudenza e la revisione dei contratti. Eppure, se da un lato i modelli odierni dimostrano una notevole capacità di adattamento alla complessa terminologia giuridica, dall'altro nascondono un "tallone d'Achille" che viene spesso trascurato: la comprensione del tempo.

Nel diritto non è sufficiente sapere quali fatti siano accaduti: è di vitale importanza comprendere l'ordine esatto in cui si sono verificati. La validità di una clausola, la prescrizione di un reato o l'esito di una complessa controversia lavorativa dipendono intrinsecamente dalla sequenza cronologica degli eventi. Ricostruire queste relazioni temporali (il cosiddetto Temporal Reasoning) si sta rivelando una delle sfide più ardue per l'Intelligenza Artificiale.

Lo stato dell'arte: cosa dice la scienza

Fino a poco tempo fa, la letteratura scientifica si è concentrata prevalentemente sulla capacità degli LLM di estrarre concetti o prevedere l'esito di una sentenza, tralasciando le dinamiche temporali. Come evidenziato in studi fondamentali sul ragionamento di senso comune, come la ricerca presentata alla conferenza EMNLP, i modelli linguistici faticano enormemente quando devono adattare le proprie risposte a scenari che evolvono nel tempo.

In ambito prettamente legale, un primo passo importante è stato fatto con l'introduzione di LexTime, un dataset pubblico basato su reali reclami federali statunitensi. Tuttavia, la ricerca si è finora limitata a compiti di "verifica binaria": chiedere all'AI, in modo basilare, se una determinata affermazione cronologica fosse vera o falsa, testando per lo più modelli testuali classici (come le prime versioni di LLaMA o Mistral) e ignorando l'impatto dei nuovissimi modelli dotati di capacità di ragionamento profondo (Deep Reasoning).

Oltre il vero o falso: testare l'AI su scenari complessi

Per capire se l'AI sia davvero pronta per i tribunali, è necessario alzare l'asticella. Un recente studio ha fatto esattamente questo, mettendo alla prova i più avanzati LLM (rilasciati fino ad aprile 2026) su due compiti specifici, estraendo paragrafi di contesto da veri documenti legali:
  1. LETOV (Legal Event Temporal Ordering Verification): un compito di verifica in cui, data una sequenza di due eventi legali, il modello deve stabilire se la deduzione temporale proposta dall'utente è corretta o contraddittoria;
  2. LETOC (Legal Event Temporal Ordering Classification): un compito molto più complesso e introdotto ex novo. Qui il modello non deve limitarsi a dire "sì" o "no", ma deve classificare e predire la corretta relazione temporale tra due eventi, scegliendo se un fatto "precede", "segue" o è "simultaneo" a un altro.

La metodologia: come far ragionare una macchina

Per valutare le reali capacità dei modelli, i ricercatori hanno utilizzato strategie di In-Context Learning, ovvero tecniche per guidare l'apprendimento del modello direttamente tramite il prompt (il comando testuale), senza riprogrammarlo alla base.

Uno dei test più importanti ha riguardato il Few-Shot Learning, ovvero la somministrazione di esempi. Come accade per gli esseri umani di fronte a un problema logico nuovo, fornire all'AI uno o tre esempi di risoluzione prima di porre la domanda finale migliora drasticamente la sua capacità di generalizzare e risolvere il caso.

Il paradosso del "Deep Reasoning": pensare troppo non basta

L'aspetto più affascinante (e per certi versi controintuitivo) della ricerca è emerso testando il Reasoning Effort, ovvero la possibilità di concedere all'AI più tempo e più token (potenza di calcolo) per "pensare" prima di rispondere, utilizzando modelli dotati di Deep Reasoning come OpenAI o3 o Grok 4.

I test hanno dimostrato che aumentare lo sforzo di ragionamento porta a miglioramenti solo marginali. Perché? La risposta è scientificamente rilevante: la potenza di calcolo non può sostituire la competenza verticale. I modelli generalisti possono "pensare" più a lungo, ma non avendo un background giuridico sufficientemente profondo, non riescono a tradurre questo sforzo computazionale in un reale salto qualitativo nella comprensione del diritto.

A livello di performance assolute, il modello Grok 4 (in configurazione con 3 esempi forniti) ha superato lo stato dell'arte, ottenendo un'accuratezza dell'85.28% nel task di verifica e dell'81.74% in quello di classificazione. Tuttavia, questo risultato porta con sé un problema di costi e tempi: l'inferenza di Grok 4 può superare il minuto di attesa, rendendolo inadatto per applicazioni in tempo reale.

Al contrario, l'analisi ha fatto emergere modelli estremamente bilanciati come Claude Sonnet 4.5 e Gemini 3 Flash, che offrono performance di altissimo livello a una frazione del costo e del tempo. Notevole anche il comportamento dei modelli open-source come Mistral Devstral 2, che pur avendo un'accuratezza generale leggermente inferiore, ha registrato capacità molto elevate nell'individuare i veri positivi (Recall oltre il 92%).

L'impegno per un'AI affidabile: la sinergia tra Aruba e Politecnico di Torino

I risultati di questa ricerca dimostrano che, per quanto l'Intelligenza Artificiale sia potente, l'ambito legale richiede un livello di precisione chirurgica che i modelli generalisti, da soli, faticano ancora a garantire in modo assoluto. Per superare questi limiti servono studi mirati, capaci di analizzare gli errori (anche tramite tecniche di Explainable AI) e di addestrare i modelli su dati giuridici altamente specifici.

È esattamente in questa direzione di frontiera che si muove l'impegno di Aruba. Lo studio analizzato in questo articolo, intitolato "Exploring In-Context Learning Strategies for Temporal Ordering of Legal Events using Large Language Models", è il frutto diretto di un progetto di ricerca congiunto tra Aruba AI e il Politecnico di Torino.

Il lavoro—che ha visto la collaborazione di Andrea Cacioli, del Prof. Luca Cagliero (Dipartimento di Automatica e Informatica del Politecnico) e di Francesco Tarasconi (Artificial Intelligence Manager di Aruba)—è stato presentato a Tampere, in Finlandia, in occasione della prestigiosa EDBT/ICDT 2026 Joint Conference (Workshop DARLI-AP).

Questa sinergia tra eccellenza accademica e sviluppo industriale rappresenta un passaggio fondamentale, forse meno visibile al grande pubblico rispetto al lancio di un nuovo software, ma assolutamente decisivo. L'obiettivo di Aruba non è semplicemente adottare le tecnologie del momento, ma contribuire attivamente a plasmarle, per costruire un'Intelligenza Artificiale che sia sempre più trasparente, sicura e, soprattutto, inequivocabilmente affidabile.
 



 
 
Newsletterbox